即使在高度发达的国家,多达15-30%的人口只能理解使用基本词汇编写的文本。他们对日常文本的理解是有限的,这阻止了他们在社会中发挥积极作用,并就医疗保健,法律代表或民主选择做出明智的决定。词汇简化是一项自然语言处理任务,旨在通过更简单地替换复杂的词汇和表达方式来使每个人都可以理解文本,同时保留原始含义。在过去的20年中,它引起了极大的关注,并且已经针对各种语言提出了全自动词汇简化系统。该领域进步的主要障碍是缺乏用于构建和评估词汇简化系统的高质量数据集。我们提出了一个新的基准数据集,用于英语,西班牙语和(巴西)葡萄牙语中的词汇简化,并提供有关数据选择和注释程序的详细信息。这是第一个可直接比较三种语言的词汇简化系统的数据集。为了展示数据集的可用性,我们将两种具有不同体系结构(神经与非神经)的最先进的词汇简化系统适应所有三种语言(英语,西班牙语和巴西葡萄牙语),并评估他们的表演在我们的新数据集中。为了进行更公平的比较,我们使用多种评估措施来捕获系统功效的各个方面,并讨论其优势和缺点。我们发现,最先进的神经词汇简化系统优于所有三种语言中最先进的非神经词汇简化系统。更重要的是,我们发现最先进的神经词汇简化系统对英语的表现要比西班牙和葡萄牙语要好得多。
translated by 谷歌翻译
我们介绍了遮阳板,一个新的像素注释的新数据集和一个基准套件,用于在以自我为中心的视频中分割手和活动对象。遮阳板注释Epic-kitchens的视频,其中带有当前视频分割数据集中未遇到的新挑战。具体而言,我们需要确保像素级注释作为对象经历变革性相互作用的短期和长期一致性,例如洋葱被剥皮,切成丁和煮熟 - 我们旨在获得果皮,洋葱块,斩波板,刀,锅以及表演手的准确像素级注释。遮阳板引入了一条注释管道,以零件为ai驱动,以进行可伸缩性和质量。总共,我们公开发布257个对象类的272K手册语义面具,990万个插值密集口罩,67K手动关系,涵盖36小时的179个未修剪视频。除了注释外,我们还引入了视频对象细分,互动理解和长期推理方面的三个挑战。有关数据,代码和排行榜:http://epic-kitchens.github.io/visor
translated by 谷歌翻译
随着几个行业正在朝着建模大规模的3D虚拟世界迈进,因此需要根据3D内容的数量,质量和多样性来扩展的内容创建工具的需求变得显而易见。在我们的工作中,我们旨在训练Parterant 3D生成模型,以合成纹理网格,可以通过3D渲染引擎直接消耗,因此立即在下游应用中使用。 3D生成建模的先前工作要么缺少几何细节,因此在它们可以生成的网格拓扑中受到限制,通常不支持纹理,或者在合成过程中使用神经渲染器,这使得它们在常见的3D软件中使用。在这项工作中,我们介绍了GET3D,这是一种生成模型,该模型直接生成具有复杂拓扑,丰富几何细节和高保真纹理的显式纹理3D网格。我们在可区分的表面建模,可区分渲染以及2D生成对抗网络中桥接了最新成功,以从2D图像集合中训练我们的模型。 GET3D能够生成高质量的3D纹理网格,从汽车,椅子,动物,摩托车和人类角色到建筑物,对以前的方法进行了重大改进。
translated by 谷歌翻译
我们考虑了户外照明估算的挑战性问题,即影像逼真的虚拟对象将其插入照片中的目标。现有在室外照明估计的作品通常将场景照明简化为环境图,该图无法捕获室外场景中的空间变化的照明效果。在这项工作中,我们提出了一种神经方法,该方法可以从单个图像中估算5D HDR光场,以及一个可区分的对象插入公式,该公式可以通过基于图像的损失来端对端训练,从而鼓励现实主义。具体而言,我们设计了针对室外场景量身定制的混合照明表示,其中包含一个HDR Sky Dome,可处理太阳的极端强度,并具有体积的照明表示,该代表模拟了周围场景的空间变化外观。通过估计的照明,我们的阴影感知对象插入是完全可区分的,这使得对复合图像的对抗训练可以为照明预测提供其他监督信号。我们在实验上证明,混合照明表示比现有的室外照明估计方法更具性能。我们进一步显示了AR对象插入在自主驾驶应用程序中的好处,在对我们的增强数据进行培训时,我们可以在其中获得3D对象检测器的性能提高。
translated by 谷歌翻译
我们建议在2D域中利用自我监督的技术来实现细粒度的3D形状分割任务。这是受到观察的启发:基于视图的表面表示比基于点云或体素占用率的3D对应物更有效地建模高分辨率表面细节和纹理。具体而言,给定3D形状,我们将其从多个视图中渲染,并在对比度学习框架内建立密集的对应学习任务。结果,与仅在2D或3D中使用自学的替代方案相比,学到的2D表示是视图不变和几何一致的,在对有限的标记形状进行培训时,可以更好地概括概括。对纹理(渲染peple)和未纹理(partnet)3D数据集的实验表明,我们的方法在细粒部分分割中优于最先进的替代方案。当仅一组稀疏的视图可供训练或形状纹理时,对基准的改进就会更大,这表明MVDecor受益于2D处理和3D几何推理。
translated by 谷歌翻译
肺部以外的视野(FOV)组织截断在常规的肺筛查计算机断层扫描(CT)中很常见。这对机会性CT的身体组成(BC)评估构成了局限性,因为缺少关键的解剖结构。传统上,扩展CT的FOV被认为是使用有限数据的CT重建问题。但是,这种方法依赖于应用程序中可能无法使用的投影域数据。在这项工作中,我们从语义图像扩展角度提出问题,该角度仅需要图像数据作为输入。提出的两阶段方法根据完整体的估计范围识别新的FOV边框,并在截短区域中渗出了缺失的组织。使用在FOV中具有完整主体的CT切片对训练样品进行模拟,从而使模型开发自制。我们使用有限FOV的肺筛选CT评估了所提出的方法在自动BC评估中的有效性。提出的方法有效地恢复了缺失的组织并减少了FOV组织截断引入的BC评估误差。在大规模肺部筛查CT数据集的BC评估中,这种校正既可以提高受试者内的一致性和与人体测量近似值的相关性。已开发的方法可在https://github.com/masilab/s-efov上获得。
translated by 谷歌翻译
现有的基于变压器的图像骨干通常会在一个方向上传播特征信息,从较低到更高级别。这可能不是理想的选择,因为定位能力划定准确的物体边界,在较低的高分辨率特征图中最突出,而可以删除属于一个对象的图像信号的语义与另一个对象相对于另一个对象,通常是在较高级别中出现的处理。我们提出了分层间注意力(HILA),这是一种基于注意力的方法,可在不同级别的功能之间捕获自下而上的更新和自上而下的更新。 Hila通过将较高和较低级别的特征之间的局部连接添加到骨干编码器中,扩展了层次视觉变压器体系结构。在每次迭代中,我们通过具有更高级别的功能来竞争作业来更新属于它们的低级功能,从而构建层次结构,从而迭代解决对象零件关系。然后使用这些改进的低级功能来更新更高级别的功能。 HILA可以集成到大多数层次结构中,而无需对基本模型进行任何更改。我们将HILA添加到Segformer和Swin Transformer中,并以更少的参数和拖鞋的方式显示出明显的语义分割精度。项目网站和代码:https://www.cs.toronto.edu/~garyleung/hila/
translated by 谷歌翻译
给定一个较小的培训数据集和学习算法,要达到目标验证或测试性能需要多少数据?这个问题至关重要,在诸如自动驾驶或医学成像之类的应用中,收集数据昂贵且耗时。高估或低估数据需求会带来大量费用,而预算可以避免。关于神经缩放定律的先前工作表明,幂律函数可以符合验证性能曲线并将其推断为较大的数据集大小。我们发现,这并不能立即转化为估计所需数据集大小以满足目标性能的更困难的下游任务。在这项工作中,我们考虑了一系列的计算机视觉任务,并系统地研究了一个概括功能功能的功能家族,以便更好地估算数据需求。最后,我们表明,结合调整的校正因子并在多个回合中收集会显着提高数据估计器的性能。使用我们的准则,从业人员可以准确估算机器学习系统的数据要求,以节省开发时间和数据采集成本。
translated by 谷歌翻译
通常通过过去的选择来告知机器学习中的评估,例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较,但是随着出现更好的替代方案,评估选择变得不佳。这个问题在自然语言生成中尤其相关,该语言需要不断改善的数据集,指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易,我们介绍了GEMV2。新版本的一代,评估和指标基准为数据集,模型和指标开发人员提供了模块化基础架构,以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估,我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。
translated by 谷歌翻译
在实践中,在实践中应用机器学习算法的瓶颈缺乏大规模标记的数据。转移学习是利用其他数据来改善下游性能的流行策略,但是找到最相关的数据可能是具有挑战性的。神经数据服务器(NDS)是一种为给定的下游任务提供相关数据的搜索引擎,以前已被提议解决此问题。 NDS使用经过数据源培训的专家组合,以估计每个源和下游任务之间的相似性。因此,每个用户的计算成本都随着来源的数量而增长。为了解决这些问题,我们提出了可扩展的神经数据服务器(SND),这是一种大规模搜索引擎,理论上可以索引数千个数据集以将相关的ML数据提供给最终用户。 SND在初始化过程中训练专家在中介数据集上的混合物,并通过与中介数据集的近距离表示数据源和下游任务。因此,随着新数据集添加到服务器中,SNDS用户产生的计算成本仍然固定。我们验证SND在许多现实世界任务上,发现SNDS推荐的数据改善了基线的下游任务性能。我们还通过显示其选择相关数据以在自然图像设置之外传输的能力来证明SND的可伸缩性。
translated by 谷歌翻译